Ši ataskaita skirta eksploratyvinei banko paskolų duomenų analizei. Mes įvertinsime pagrindines duomenų tendencijas, atliksime kintamųjų apžvalgą ir vizualizuosime svarbiausius duomenų aspektus.
Reikalingų bibliotekų įkėlimas:
library(tidyverse)
library(knitr)
library(tibble)
library(ggplot2)
library(scales)
library(DT)
library(dplyr)
library(plotly)
Duomenų įkėlimas (naudojamas cache=TRUE efektyvumui užtikrinti):
df <- read.csv("../../../project/1-data/1-sample_data.csv")
Duomenų failo dimensijos:
## [1] 1000000 9
Duomenų failas turi 1000000 eilučių ir 9 stulpelius, toliau apžvelgiame kintamuosius:
| id | y | amount_current_loan | term | credit_score | loan_purpose | yearly_income | home_ownership | bankruptcies | |
|---|---|---|---|---|---|---|---|---|---|
| Min. : 1 | Min. :0.0 | Min. : 10802 | Length:1000000 | Length:1000000 | Length:1000000 | Min. : 76627 | Length:1000000 | Min. :0.0000 | |
| 1st Qu.: 250001 | 1st Qu.:0.0 | 1st Qu.:174394 | Class :character | Class :character | Class :character | 1st Qu.: 825797 | Class :character | 1st Qu.:0.0000 | |
| Median : 500001 | Median :0.5 | Median :269676 | Mode :character | Mode :character | Mode :character | Median : 1148550 | Mode :character | Median :0.0000 | |
| Mean : 500001 | Mean :0.5 | Mean :316659 | NA | NA | NA | Mean : 1344805 | NA | Mean :0.1192 | |
| 3rd Qu.: 750000 | 3rd Qu.:1.0 | 3rd Qu.:435160 | NA | NA | NA | 3rd Qu.: 1605899 | NA | 3rd Qu.:0.0000 | |
| Max. :1000000 | Max. :1.0 | Max. :789250 | NA | NA | NA | Max. :165557393 | NA | Max. :7.0000 | |
| NA | NA | NA | NA | NA | NA | NA’s :219439 | NA | NA’s :1805 |
Minėti 9 stulpeliai:
id: naudojamas kaip atitinkamos
eilutės identifikatorius.y: dvejetainis kintamasis, naudojamas
nurodyti, ar suteikti paskolą (1), ar ne (0).amount_current_loan: dabartinės
paskolos dydis.term: paskolos išsimokėjimo
terminas.credit_score: kreditingumo
reitingas.loan_purpose: kokiam tikslui bandoma
gauti paskolą.yearly_income: paskolos gavėjo metinio
uždarbio dydis.home_ownership: paskolos gavėjo būsto
tipas (savininkas, nuomininkas, t.t.).bankruptcies: paskolos gavėjo bankrotų
skaičius.Matome, jog y reikšmės yra rodiklis, ar paskola bus patvirtinta, todėl modeliavime tai bus mūsų pagrindinis kategorinis kintamasis.
Kintamųjų tipų keitimas ir N/A reikšmių analizė:
Pagrindinių paskolos tikslų apžvalga:
Didžioji dalis paskolą bando gauti siekiant padengti jau turimą paskolą (arti 80%), kiti tikslai po didžiajai daliai buitiniai (namų remontas, mašinos pirkimas, kt.) bei laisvalaikio (išvykos, poilsis, t.t.).
N/A reikšmių apžvalga:
N/A reikšmes turi tik trys kintamieji- credit_score, yearly_income ir bankruptcies. Pagal N/A reikšmių kiekius kintamuosiuose sprendžiame, jog kintamieji credit_score (apie 30% reikšmių- N/A) bei yearly_income (apie 20% reikšmių - N/A) nebus tokie reikšmingi paskolos suteikimo procese, kaip kad kiti kintamieji.
Atvaizduojame paskolos suteikimo duomenis pagal paskolos tikslą: